Atención por capas eficiente: poda de recuperaciones redundantes Descubre cómo ELA, usando divergencia KL y mapeo cuantil beta, reduce un 30% el tiempo de entrenamiento al podar capas redundantes en atención por capas. 2026-06-03 · 2 min